統計的推測では、個々のデータ点の観察から始まり、標本系列の関数的写像 $Y = h(X_1, X_2, \dots, X_n)$ として定義される**統計量**の分析へと移行します。元となる標本が確率変数で構成されているため、統計量自体も確率変数となり、その確率法則は**標本分布**と呼ばれます。
統計量とは写像である
統計量は正式には関数 $h: \mathbb{R}^n \to \mathbb{R}$ として定義されます。統計量が集合 $B$ に属する確率は、前像を使って定義します:
$$h^{-1} B = \{(x_1, x_2, \dots, x_n) : h(x_1, x_2, \dots, x_n) \in B\}$$
i.i.d. の基礎
独立かつ同一分布(i.i.d.)に従う確率変数の標本について、特定の標本点 $(x_1, \dots, x_n)$ に対する同時確率は、各変数の周辺確率の積、すなわち $p(x_1)p(x_2)\dots p(x_n)$ になります。この積は、統計量が特定の値を取る確率を計算する際の各点の重みとなります。
例 4.1.1:幾何平均
離散的な母集団において、$p_X(1) = 1/2$、$p_X(2) = 1/4$、$p_X(3) = 1/4$ とします。サイズ $n=2$($X_1, X_2$)の標本を抽出し、統計量として幾何平均 $Y_2 = (X_1 X_2)^{1/2}$ を定義します。
$Y_2$ の分布を求めるために、すべての可能なペア $(X_1, X_2)$ を9通り列挙し、それぞれの同時確率と得られる $Y_2$ を計算します:
| ペア $(x_1, x_2)$ | 確率 $P(x_1)P(x_2)$ | $Y = \sqrt{x_1 x_2}$ |
|---|---|---|
| (1, 1) | 1/4 | 1.000 |
| (1, 2), (2, 1) | 1/8 + 1/8 = 1/4 | 1.414 |
| (1, 3), (3, 1) | 1/8 + 1/8 = 1/4 | 1.732 |
| (2, 2) | 1/16 | 2.000 |
| (2, 3), (3, 2) | 1/16 + 1/16 = 1/8 | 2.449 |
| (3, 3) | 1/16 | 3.000 |
正確分布と漸近分布
中心極限定理(CLT)のような極限定理に進む前に、「正確分布」を習得することが必要です。これは、小さな有限の $n$ に対して、統計量の具体的な確率質量関数または確率密度関数を計算することを意味します。解析的に扱いにくくなった場合には、**モンテカルロ近似**などの数値シミュレーションに頼ります。
🎯 核心原則
標本分布とは、あるi.i.d.系列の関数に対応する確率変数の分布です。それは、原始データと科学的推論との間の橋渡しです。